トップページ | 統計学の解釈学 | このサイトについて

因果推論の根本問題は、複数ある

以下は、筆者の私見です。 誤解があれば、ご教示いただけると幸いです。


統計的因果推論 では、「因果推論の根本問題」と言われているものがあります。 「同じ対象に対して、処置ありと、処置なしの両方を同時に観測できない」 という問題です。

2010年頃からの統計的因果推論では、この問題を中心とした話題が盛んで、どのように対応すれば良いのかが研究されて来ています。

なお、この根本問題が当てはまるのは、「人への薬の投与」のようなテーマの場合です。 例えば、物の因果関係の場合や、人だとしても、可逆な現象の場合は、この根本問題が当てはまらないです。


ところで、上記の問題が根本問題なら、他にも「根本問題」と呼べそうなものがあります。 筆者が思い当たるものが、下記になります。

問題としては、3つがあります。下記では、それらの問題に、筆者がどのような対応をして来たのかについても、まとめてみました。
因果推論の根本問題

「データ構造は、1種類ではない」問題

「相関関係があれば、因果関係があるとは限らない。因果関係があれば、相関関係があるとは限らない」ということは、よく言われます。

有向グラフについては、 「有向グラフは、因果関係を表すとは限らない。因果関係があれば、有向グラフで表せる」となっています。 こうなっている理由の主要な部分は、相関関係と因果関係の話と同じで、「データからわかること(相関関係や、有向グラフになる構造)と、因果関係は必ずしも一致しない」という点です。

有向グラフになるデータの構造 というページにあるように、有向グラフを作ることができるデータの構造は、1種類ではないのですが、どれも当てはまらない因果関係のデータもあります。

「データ構造は、1種類ではない」問題への対応

データから因果関係を直接的に導き出そうとすると、無理があります。 しかし、 有向グラフになるデータの構造 があれば、それがどのような構造になるのかはわかります。

データの構造がわかると、データへの理解が深まります。 それを、因果関係を明らかにするための、手掛かりとして使います。

「交絡因子がわからない」問題

「スイッチがONで、点灯。スイッチがOFFで、消灯」の場合、スイッチが原因で、ライトが結果です。 この場合は、因果関係が明確です。

ところが、「スイッチがONでも、点灯する時と、しない時がある」という場合は、因果関係が複雑になります。 電気関係なら、スイッチとライトの間をつなぐ部分のどこかで、接触が不安定になっていると、このような現象が起きます。 この場合、「つなぐ部分のどこか」が交絡因子と考えられます。

シンプルな物で起こる因果関係の場合は、交絡因子を特定できることもありますが、 人の体や、日本経済などのように、複雑なもので起こる因果関係では、交絡因子をすべて見つけるのは不可能です。

統計的因果推論では、「交絡因子がなければ」、「交絡因子がすべて把握できていて、そのデータが取得できていれば」、「交絡因子の影響の仕方が加法的ならば」という前提で理論が作られているので、そもそも交絡因子がわからないのは問題です。

「交絡因子がわからない」問題への対応

統計的因果推論は、「その因果関係は、なぜ成り立っているのか?」というメカニズムは明らかにせずに、成り立っていることを証明しようとします。

ライトの例では、「スイッチのON・OFFで、電気が流れる・流れないを変えている。ライトは、電気が流れると点灯する」ということを知っていれば、 「スイッチがONでも、点灯する時としない時がある」という場合に、何を調べれば良いのか、推察できるようになります。

因果関係のメカニズムは、仮説でも良いので、考えておくようにすると、未知の交絡因子によって、因果関係が崩れて来た時に、すばやく対応できます。

「データがない」問題

「統計的因果推論は、因果関係の仮説を導く方法」と思いたくなりますが、「適切なデータがあれば」という大前提があります。

一方、「適切なデータ」として使えるデータは、「これは後で利用できるデータになる」と考えて記録されています。 因果関係の仮説がなければ、「後で利用できる」とは思わないです。 「卵がなければ、ニワトリは生まれない。ニワトリがいなければ、卵は生まれない」のような話になっています。

そのため、「既存のデータを調べたら、未知の現象の因果関係が発見できた」ということには、とてもなりにくいです。

数千、数万、数十万のような数の変数があるビッグデータがあると、「これを調べれば、因果関係を明らかにできるはず」と思いたくなりますが、 ビッグデータかどうかと、必要なデータが含まれているかどうかは、別の話です。 そのため、どんなにすばらしいデータ基盤を持っていたとしても、目の前のテーマに対して、決め手にならないことがあります。

「データがない」問題への対応

筆者の場合、因果探索の方法を使う時に、「因果関係を明らかにできる方法」ということでは使わないです。 「因果関係を明らかにするための、手掛かりを得るための方法」と思って使っています。

手掛かりを得た後は、「データにはなっていないことについて、現地・現物を調べて因果関係を明らかにしていく」、という流れになることが多いです。



データサイエンス教室